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摘 要 


实验 设计 的 关键 是 3 


的 特点 , 通过 贝 叶 斯 


如 何 使 用 开源 软件 JASP 和 R 实现 该 分 析 的 三 个 步骤 : 


“ 衡 信 ， 


电量 与 效率 。 贝 叶 斯 
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因子 序列 分 析 利 用 贝 叶 斯 因子 不 断 更 新 说 
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因子 标准 和 在 收集 数据 过 程 的 序列 分 析 来 平衡 信息 量 与 效率 。 本 文 展示 


确定 关键 效应 、 确 定 停止 标准 、 


收集 中 序列 分 析 并 决策 。 该 方法 考虑 现实 条 件 且 简单 易 行 ， 可 帮助 胡 
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数据 


究 者 更 有 效 进行 实验 。 


1. 前 

实验 是 科学 心理 学 重要 方法 之 一 。 实 验 设计 的 关键 是 平衡 效率 和 信息 量 , 即 如 何 使 用 较 
小 的 实验 成 本 ， 如 被 试 量 、 时 间 、 金 钱 等 的 情况 下 ， 能 够 尽 可 能 可 靠 地 检测 出 感 兴趣 效应 ， 
获得 能 够 拒绝 或 接受 某 个 研究 假设 的 证 据 (Stefan etal., 2019)。 当 实验 任务 以 及 测量 方式 等 确 
定 后 , 对 实验 的 信息 量 能 够 产生 重大 影响 的 通常 是 实验 中 的 样本 量 。 由 于 科学 心理 学 研究 中 


的 效应 往往 比较 小 (Funder & Ozer, 2019; Richard et al., 2003, 2003; Schäfer & Schwarz, 2019; 


Dil 


Thielmann et al., 2020; Götz et al., 2022)， 如 何 选择 合适 的 样本 量 已 成 为 实验 设计 中 需要 研究 
者 重点 思考 的 因素 ( 温 忠 鹿 等 , 2022)。 

当前 ， 研 究 者 对 样本 量 的 估计 主要 基于 零 假设 显著 性 检验 (null hypothesis significance 
test, NHST) 框架 下 的 先 验 统计 检验 力 分 析 (prior power analysis)。 该 方法 有 两 个 明显 的 不 
足 。 首 先 ， 其 仅 关 注 实 验 设 计 的 部 分 信息 量 ， 即 如 何 控制 假 阳性 和 假 阴性 的 错误 率 。 这 导致 
研究 者 忽略 实验 设计 的 其 他 方面 信息 , 如 支持 证 据 的 强度 和 实验 的 效率 问题 等 ($ch6nbrodt et 


al., 2017; Schénbrodt & Wagenmakers, 2018; Stefan et al., 2019)。 其 次 ， 该 方法 过 于 依赖 效应 


量 的 设 定 。 心 理学 可 重复 危机 ( 胡 传 鹏 等 , 2016; Lindsay, 2020; Open Science Collaboration, 
2015)， 更 增加 了 设 定 合适 的 效应 量 的 难度 。 如 果 按 照 已 发 表 的 论文 进行 效应 量 设 定 ， 则 可 
能 由 于 出 版 偏见 等 原因 ( 胡 传 鹏 等 , 2016) 而 选择 了 高 估 的 效应 量 ， 导 致 统计 检验 力 分 析 的 结 
果 脱 离 真实 情况 。 另 一 方面 ， 如 果 选 择 的 效应 量 过 于 保守 ， 则 可 能 导致 研究 者 需要 承担 更 多 
的 实验 成 本 (Lakens, 2022)。 

近年 来 ， 研 究 者 提出 贝 叶 斯 因子 序列 分 析 (sequential Bayes Factor analysis) 以 平衡 信息 量 
和 效率 。 研究 者 通过 数据 模拟 发 现 , 在 合理 地 设置 先 验 (prior) 和 贝 叶 斯 因子 (Bayes Factor, BF) 
决策 阔 值 之 后 , 贝 叶 斯 因子 序列 分 析 可 以 很 好 地 控制 实验 的 假 阳 性 率 和 假 阴性 率 (Sch5nbrodt 
& Wagenmakers, 2018)。 由 于 贝 叶 斯 因子 可 以 监控 证 据 的 强度 的 特性 ， 使 用 贝 叶 斯 因子 序列 
分 析 也 能 为 研究 者 提供 丰富 的 关于 当前 实验 的 信息 ( 胡 传 鹏 等 , 2018; Schmalz et al., 2021). 

本 文 将 在 介绍 贝 叶 斯 因子 基本 概念 的 基础 上 ， 介 绍 贝 叶 斯 因子 序列 分 析 及 其 应 用 步 又 。 
随后 介绍 如 何 使 用 开源 软件 JASP 和 R 语言 对 实证 数据 进行 分 析 。 最 后 , 在 此 基础 上 探讨 贝 
叶 斯 因子 序列 分 析 的 应 用 前 景 和 不 足 。 


2， 贝 叶 斯 因子 序列 分 析 的 原理 
贝 叶 斯 因子 是 贝 叶 斯 统计 框架 下 进行 假设 检验 的 方法 。 贝 叶 斯 统计 与 经 典 频率 主义 统 
计 最 大 的 区 别 在 于 对 概率 (probability) 的 理解 不 同 : 在 贝 叶 斯 统计 框架 之 下 , 某 个 事件 的 概率 


是 一 个 参数 ,其 分 布 反映 了 分 析 者 对 某 个 事件 的 信念 强度 。 分 析 者 对 事件 的 信念 也 会 随 着 新 


数据 的 输入 而 不 断 更 新 ; 


而 经 典 频率 主义 则 认为 某 事件 的 概率 是 一 个 客观 存在 的 特定 值 。 零 


假设 显著 性 检验 基于 特定 的 统计 模型 HO), 依据 当前 的 数据 模式 或 更 极端 的 模式 出 现在 这 


一 统计 模型 之 下 的 可 能 性 而 进行 推断 。 相 反 ， 贝 叶 斯 因子 BF 不 仅 量化 了 观察 数据 出 现在 


Hl 和 出 现在 Ho 的 可 能 怕 


析 者 的 信念 ( 见 公 式 2) 


FE 的 比值 ( 见 公 式 1) 而 且 也 反映 了 当前 数据 在 多 大 程度 上 更 新 了 分 


(Mani et al., 2021; Schonbrodt et al., 2017; Tendeiro, 2022). 


E p(data| Hı) 
Brio p(data| Ho) 
公式 1 
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由 于 对 NHST 中 jp 值 的 误解 ， 不 少 研究 者 会 将 p 值 大 于 或 小 于 显著 性 水 平 作为 支持 实 


验 假设 的 证 据 ( 胡 传 鹏 等 ， 


2016; EFA, 2021; X.-K. Lyu et al., 2020; Z. Lyu et al., 2018)。 这 一 


误解 与 研究 者 在 数据 分 析 时 可 能 存在 的 自由 度 结合 (如 不 断 收集 数据 检查 p 值 是 否 小 于 


0.05)， 进 而 导致 苑 座 的 结论 (如 认为 人 类 可 以 预测 未 来 ， 见 LeBel & Peters, 2011)。 为 解决 


这 一 问题 , 有 研究 者 提出 使 用 贝 叶 斯 因子 假设 检验 来 蔡 代 NHST( 吴 几 等 ,2018; Wagenmakers 


etal., 2011)。 贝 叶 斯 因子 


的 优势 在 于 能 同时 考虑 对 零 假设 和 备 择 假 设 的 支持 程度 。 此 外 ， 贝 


叶 斯 因子 还 有 监控 证 据 强度 的 变化 、 结 果 会 趋 于 稳定 等 优点 ( 胡 传 鹏 等 ,2018; Wagenmakers et 
al., 2016). Al 2012 年 以 来 ， 随 着 图 形 界面 的 软件 以 及 简单 易 用 的 R 工具 包 (如 JASP, jamovi, 


BayesFactor) 的 出 现 ， 贝 叶 斯 因子 开始 被 广泛 使 用 。 正 是 由 于 这 些 优点 和 工具 ， 研 究 者 对 贝 


叶 斯 因子 的 使 用 更 简便 ， 
的 平衡 


能 动态 地 了 解 证 据 强 度 的 变化 , 从 而 实现 实验 设计 中 信息 量 与 效率 


2.1 贝 叶 斯 因子 序列 分 析 


序列 分 析 指 的 是 研究 者 在 数据 收集 前 , 根据 研究 设计 选择 适当 的 统计 模型 。 在 保证 研究 


获得 足够 信息 的 前 提 下 ， 


设置 停止 数据 收集 的 标准 。 随 后 在 数据 收集 过 程 中 ,能 对 新 收集 的 


数据 进行 持续 或 阶段 地 分 析 。 当 这 些 中 期 分 析 (interim analysis) 的 结果 达到 预定 标准 时 ,可 及 
时 停止 收集 数据 。 由 于 序列 分 析 在 研究 中 并 没有 固定 的 样本 量 , 研究 者 可 以 在 信息 量 足 够 的 
前 提 下 及 时 停止 收集 数据 ， 减 少 实验 成 本 。 

序列 分 析 与 p 值 操纵 中 的 手段 之 一 一 一 收集 数据 直到 结果 显著 为 止 一 一 不 同 。 前 者 考 
虑 停止 规则 对 信息 的 影响 ， 将 假 阳 性 和 假 阴 性 保持 在 一 个 可 接受 的 范围 (Lakens et al., 2021; 
Schönbrodt et al., 2017); 而 后 者 则 是 以 传统 意义 上 的 “统计 显著 性 ”(p < 0.05) 作为 标准 ， 未 
考虑 随 着 中 期 分 析 中 检验 次 数 的 增加 ， 一 类 错误 出 现 的 风险 将 大 大 增加 ( 胡 传 鹏 等 , 2016; 
Ioannidis, 2005; Lakens, 2014; Yu et al., 2014)。 在 贝 叶 斯 框架 和 频率 主义 统计 的 框架 之 下 ， 均 
可 以 进行 序列 分 析 。 与 频率 主义 的 序列 分 析 中 需要 提前 确定 中 期 分 析 次 数 (Lakens, 2022) 相 
比 ， 贝 叶 斯 因子 的 序列 分 析 操 作 更 为 简便 。 

贝 叶 斯 因子 的 序列 分 析 能 够 很 好 控制 假 阳 性 或 假 阴 性 ， 在 理论 上 和 实践 上 均 得 到 了 支 
持 。 理 论 上 ,研究 者 认为 ,选择 性 停止 不 会 影响 贝 叶 斯 因子 作为 量化 证 据 强 度 的 指标 (Rouder, 
2014; Schmalz et al., 2021)。 通 过 贝 叶 斯 因子 序列 分 析 获 得 的 数据 与 一 次 收集 数据 得 到 的 结 
果 基 本 一 致 。 这 是 由 于 尽管 设 定 的 停止 阔 值 会 让 一 些 数据 〈 如 在 NHST 框架 下 导致 p 值 暂 
时 小 于 0.05 的 数据 ) 更 容易 被 观察 到 ， 但 在 贝 叶 斯 框架 下 ， 数 据 增加 会 同时 改变 零 假 设 和 
备 择 假 设 下 观察 到 该 数据 的 可 能 性 ， 使 得 两 个 假设 的 似 然 比 〈 也 就 是 贝 叶 斯 因子 ) 不 会 受到 
影响 (Bayarri et al., 2016). 

实践 上 ， 研 究 者 通过 模拟 对 贝 叶 斯 因子 序列 分 析 能 和 否 能 够 控制 假 阳性 和 假 阴 性 进行 了 
检验 。Sch6nbrodt 等 (2017) 以 独立 样本 1 检验 为 例 进 行 了 一 系列 模拟 测验 。 结 果 表明 : 当 效 
应 量 为 0 时 ， 以 尺度 参数 (scale parameter)r = V2/2 的 柯 西 分 布 作为 先 验 , 将 停止 收集 数据 的 
BF BU VEEN 10 或 110 时 ， 假 阳性 率 为 4.3%， 与 传统 意义 上 的 5% 的 假 阳 性 率 相当 ; 当 
效应 量 为 0.2 时 ， 以 同样 的 先 验 分 布 和 BF 立 值 进行 贝 叶 斯 因子 分 析 ， 假 明 性 率 为 5.6%， 类 
似 于 NHST 中 的 统计 检验 力 达 到 94.4%。 该 研究 还 发 现在 不 同 的 效应 量 下 , 随 着 柯 西 分 布 的 
先 验 尺度 参数 或 BF 立 值 增加 ， 假 阴性 率 会 逐渐 降低 为 0， 假 阳性 率 会 逐渐 降低 至 极 小 值 
(Schénbrodt et al., 2017)。 同 时 ， 在 相同 效应 量 前 提 下 ， 贝 叶 斯 因子 序列 分 析 只 需 传统 频率 学 
派 的 统计 检验 力 分 析 所 需要 样本 的 30%~50% 即 可 检测 出 效应 的 存在 ， 而 假 阳 性 或 假 阴 性 率 
与 传统 统计 检验 力 相同 或 更 低 (Sch5nbrodt et al., 2017)。 后 续 的 模拟 研究 也 证 明 使 用 贝 叶 斯 因 
子 序列 分 析 并 在 达到 研究 者 最 大 可 收集 样本 量 时 停止 继续 收集 数据 的 情况 下 也 可 以 很 好 地 
控制 假 阳 性 率 和 假 阴 性 率 (Sch5nbrodt & Wagenmakers, 2018). 


2.2 使 用 贝 叶 斯 因子 序列 分 析 的 步骤 


地 


(ay 
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贝 叶 斯 因子 序列 分 析 大 致 可 分 为 三 个 步骤 : 确定 关键 的 效应 、 确 定 停止 数据 收集 的 标准 、 


在 数据 收集 中 进 和 


了 分 析 并 决定 是 否 停止 收集 数据 ( 见 图 1)。 


贝 叶 斯 因子 的 序列 分 析 首 先 需 要 确定 研究 中 关键 的 效应 。 这 一 点 与 传统 的 统计 检验 力 


分 析 相 似 , 但 常 为 研究 者 所 忽视 。 也 就 是 说 , 研究 者 要 将 最 关键 的 研究 假设 与 统计 检验 建立 


联系 (Scheel et al., 


- 


2021). 


当 研究 者 明确 自己 需要 检验 的 效应 以 及 对 应 的 统计 分 析 后 ， 下 一 步 是 设 定 BF BA. W 
究 者 可 以 根据 先前 的 模拟 研究 或 自己 进行 模拟 研究 来 确定 这 个 阐 值 。 通 常 研 究 者 认为 停止 
收集 数据 的 BF BAY 6 BK 1/6 或 更 严格 的 10 或 10 时 ， 能 够 较 好 地 平衡 假 阴 性 和 假 阳 性 


(Moerbeek, 2021; 


analysis) 得 到 多 个 


Schonbrodt et al., 2017; Schonbrodt & Wagenmakers, 2018; Stefan et al., 2019). 


在 设置 BF RWAN, 研究 者 需要 清晰 地 说 明 其 先 验 选择 ， 或 通过 稳健 性 分 析 robustness 


先 验 下 的 BF 值 ， 并 将 停止 收集 数据 标准 设 定 为 多 个 先 验 分 布下 的 BF 值 


均 达 到 阔 值 ， 从 而 更 加 有 把 握 地 进行 推 产 。 


研究 者 也 需要 考虑 现实 条 件 对 数据 收集 的 制约 。 Sch6nbrodt 和 Wagenmakers(2018) 建 议 ， 


研究 者 可 以 根据 现实 条 件 考虑 自己 在 实验 中 能 够 收集 的 最 大 样本 作为 停止 收集 数据 的 另 一 
个 标准 。 同 时 , 为 避免 使 用 贝 叶 斯 因子 序列 分 析 在 收集 数据 早期 停止 时 出 现 估计 效应 量 最 大 


条 件 偏 差 以 及 较 大 的 假 阳 性 ， 可 以 先 收集 每 组 12 或 20 个 的 最 小 样本 量 来 避免 误导 性 的 证 


据 (Schonbrodt et al., 2017; Svensson et al., 2021). 


第 三 步 ， 理 六 


eo Lit, 达到 先前 设 定 的 H BR Ho ABEL, 研究 者 应 该 停止 收集 数据 并 


且 报 告 最 终 的 BF7o， 也 可 报告 均值 和 设 定 效应 量 的 实际 等 价 区 以 及 最 高 后 验 密度 区 间 


(HDD( 许 岳 培 等 


2 


,2021)， 或 对 整个 后 验 分 布 作 图 (Sch5nbrodt et al., 2017)。 实 际 研究 中 ， 当 达 
到 其 他 实验 前 确定 的 标准 时 也 可 以 停止 ， 如 达到 最 大 样本 量 。 此 外 ， 当 BF 达到 先前 设 定 阔 


值 时 ， 可 继续 让 已 经 预约 的 被 试 完成 实验 。 
以 上 三 个 步骤 为 开放 式 贝 叶 斯 因子 序列 分 析 的 主要 步 又。 研究 者 还 可 在 事先 定义 停止 


闵 值 和 先 验 效应 量 分 布 前 进行 预 注册 (Svensson et al., 2021)。 
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明确 统计 模型 及 相关 的 关 
键 统计 检验 


= 和 


设 定 停止 规则 (BFA, 
最 小 和 最 大 收集 样本 量 ) 


y 
大 于 最 小 收集 样本 量 ? 四 


y 


否 根据 先 验 计算 BF 值 


— 达到 最 大 收集 样本 量 ? 是 


图 1: 贝 叶 斯 因子 序列 分 析 流 程 图 


3， 贝 叶 斯 因子 序列 分 析 的 实现 


3.1 示例 数据 


为 演示 贝 叶 斯 因子 序列 分 析 ， 本 文 使 用 一 组 通过 jsPsych (de Leeuw, 2015) 
数据 。 该 在 线 实验 采用 社会 联结 范式 (Sui et al., 2012)。 实 验 中 ， 被 试 首先 学 习 三 个 图 形 (三 
角形 、 圆 形 和 正方 形 ) 和 三 个 不 同道 德 效 价 的 人 物 标 签 (“好 人 ”、“ 坏 人 ”和 “常人 ”) 之 间 的 
联系 。 随 后 , 被 试 需要 完成 一 个 简单 的 知觉 匹配 任务 : 屏幕 上 同时 呈现 的 图 形 和 文字 标签 100 
毫秒 , 被 试 需 判断 呈现 的 图 形 与 标签 是 否 与 属于 先前 学 习 到 的 联结 关系 ， 如 果 属 于 ， 则 反应 
为 匹配 ,否则 是 不 匹配 ,图形 与 道德 标签 之 间 的 关系 在 被 试 间 进行 平衡 ,数据 经 过 预 处 理 后 ， 


整理 为 认 知 心理 


学 实验 中 常见 的 形式 ， 即 每 个 被 试 的 数据 仅 包 括 其 在 每 个 条 们 


在 线 收集 的 


FE 下 的 反应 时 


均值 和 正确 率 。 数据 可 以 通过 链接 : https://github.com/Chuan-Peng-Lab/SBFA_Tutorial 获取 。 


3.2 步骤 1: 确定 关键 的 BF 值 、 相 应 的 统计 模型 以 及 停止 收集 数据 的 标准 

本 示例 中 , 研究 目的 是 检验 不 同道 德 效 价 水 平 的 人 物 标 签 与 图 形 进行 联结 后 , 是 否 会 影 
响 被 试 对 随后 的 知觉 匹配 任务 的 知觉 决策 过 程 。 根 据 先前 研究 (Hu et al., 2020; Sui et al., 2012), 
不 同 效 价 的 道德 标签 在 联结 学 习 后 对 知觉 匹配 的 影响 主要 体现 在 匹配 的 试 次 中 。 因 此 , 我 们 
的 假设 会 出 现 匹配 与 道德 标签 交互 作用 。 此 外 , 假定 我 们 对 道德 标签 的 效应 有 非常 具体 的 假 
设 ， 即 积极 效 价 优 于 中 性 条 件 ， 中 性 条 件 优 于 消极 条 件 。 由 于 知觉 匹配 任务 中 既 有 反应 时 间 
(reaction times，RT)， 也 有 正确 率 数据 ， 还 有 基于 信号 检测 论 所 估计 出 的 敏感 性 dg 决策 
标准 c 等 参数 值 。 因 此 ， 感 兴趣 的 研究 假设 可 能 会 对 应 着 多 个 统计 检验 ， 研 究 者 需要 从 中 
选 定 最 关键 的 统计 检验 。 在 本 示例 中 ， 根据 先前 研究 的 结果 ， 我 们 推断 反应 时 间 可 能 是 最 
敏感 的 指标 , 因此 , 在 众多 的 因 变 量 中 选择 反应 时 间 的 结果 作为 贝 叶 斯 因子 序列 分 析 中 的 关 


表 1. 示例 数据 集中 的 研究 问题 、 统 计 假 设 与 关键 的 BF 值 


研究 问题 统计 假设 A] Ae es 可 能 的 BF 值 (加 粗 为 关键 》 

匹配 与 效 价 的 交互 作用 RT 2x3 RMANOVA 中 的 交互 作用 
匹配 与 效 价 的 交互 作用 ACC 2x3 RM ANOVA 中 的 交互 作用 
匹配 与 效 价 的 交互 作用 dprime One-way RM ANOVA 

积极 匹配 条 件 优 于 中 性 匹配 条 件 RT t-test 

道德 效 价 是 否 对 知觉 匹配 中 
积极 匹配 条 件 优 于 中 性 匹配 条 件 ACC t-test 
的 匹配 试 次 产生 影响 

积极 匹配 条 件 优 于 中 性 匹配 条 件 dprime t-test 

消极 匹配 条 件 劣 于 中 性 匹配 条 件 RT t-test 

消极 匹配 条 件 劣 于 中 性 匹配 条 件 ACC t-test 

消极 匹配 条 件 劣 于 中 性 匹配 条 件 dprime t-test 


* 在 一 个 简单 的 2x3 被 试 内 实验 设计 中 ， 考 查 一 个 自 变量 的 效应 时 ， 湾 在 的 统计 检验 可 以 多 达 9 个 。 本 示 


例 中 通过 先前 研究 选 定 关键 的 研究 假设 ， 而 非 收集 数据 后 探索 显著 的 效应 ， 避 免 了 研究 者 自由 度 过 大 带 来 


的 假 阳性 (Simmons et al., 2011)。 具 体 而 言 ， 我 们 将 关注 贝 叶 斯 重复 测量 方差 分 析 中 的 交互 作用 和 两 个 以 反 


应 时 间作 为 因 变量 的 配对 样本 1 检验 ( 表 1 中 加 粗 的 部 分 )。 


根据 先前 的 模拟 研究 , 我 们 确定 停止 继续 收集 样本 的 BF BE: BF 10 BREN 10 BX 1/10. 
此 时 ， 有 足够 的 证 据 支 持 备 择 假设 或 原 假设 ， 可 停止 收集 数据 。 

同时 ,我 们 也 根据 Schönbrodt 等 (2017) 的 建议 和 现实 收集 数据 的 制约 因素 ,假定 本 次 研 
究 中 最 小 收集 样本 量 和 最 大 收集 样本 量 分 别 设 定 为 ，12 名 被 试 和 20 名 被 试 !。 
3.3 步骤 2: 中 期 分 析 
3. 3. 1 t+ 检验 

首先 ， 使 用 JASP 软件 对 数据 进行 配对 样本 ! 检验 的 贝 叶 斯 因子 序列 分 析 分 析 。 读 取 数 
据 等 步骤 可 以 参照 胡 传 鹏 等 (2018) 的 教程 。 以 下 将 以 示例 数据 为 例 ， 使 用 JASP 0.16.4 进行 
展示 (Loveetal., 2019)。 由 于 关键 效应 有 两 个 单 侧 1 检 验 ， 因 此， 在 中 期 分 析 中 ， 我 们 需要 
对 两 个 配对 样本 1 检验 的 结果 进行 持续 分 析 。 

然后 ,为 在 本 条件 下 的 效应 量 选择 一 个 先 验 分 布 , 在 JASP 和 及 语言 BayesFactor 工具 


包 中 ， 默 认 使 用 默认 先 验 分 布 (default priors)。 之 后 通过 点 击 界面 上 的 工 Tests 面板 ， 选 择 


ming 


“Bayesian”" 分 类 下 的 'Paired samples T-Tests”"， 将 变量 “RT_Good _Match” 和 “RT_Neutral_ Match” 


放 入 到 “Variable Pairs” 框 内 ,根据 前 文 的 假设 ,选择 “Alt.Hpothesis” 下 的 “Measure 1 < Measure 
2” 进 行 单 侧 配 对 样本 T 检验 ， 并 点 击 “Plots” F 77 (4 “Sequential analysis” 以 及 子 选项 
“Robustness check” 对 数据 进行 贝 叶 斯 因子 序列 分 析 和 稳健 性 检验 ， 步 又 和 结果 见 图 2 A。 

如 图 2A 右 侧 结果 显示 , 在 收集 到 第 6 个 被 试 时 , 积极 匹配 条 件 和 中 性 匹配 条 件 比 较 的 
单 侧 配对 样本 1 检验 的 BF7o 值 超过 10， 表 明 有 极 强 的 证 据 支持 万)。 

同时 ， 对 另 一 个 假设 “消极 匹配 条 件 劣 于 中 性 匹配 条 件 ” 进 行 BF 配对 样本 1 检验， 仅 需 
选择 对 应 的 变量 并 改变 在 “Alt.Hpothesis” 下 选择 “Measure 1 > Measure 2 的 选项 就 可 以 得 到 
与 假设 符合 的 贝 叶 斯 因子 序列 分 析 的 结果 。 如 图 2B 右 侧 结果 显示 , 在 收集 样本 达到 最 大 收 
集 样本 量 20 名 被 试 时 ,虽然 消极 匹配 条 件 和 中 性 匹配 条 件 比较 的 单 侧 配 对 样本 1 检验 的 BFjo 
值 有 明显 偏向 Ho RRL, 但 是 并 没有 达到 或 超过 事先 定义 的 Ho BRIE 1/10. 同时 敏感 性 分 析 
表明 ， 在 先 验 分 布 较为 宽 时 ，BFio 接 近 1/10. KUM, 研究 者 需要 评估 现实 因素 ,判断 是 否 


! 此 处 最 大 样本 量 的 设置 是 出 于 演示 的 目的 , 12 与 20 对 真实 实验 不 具备 参考 价值 。 研究 者 应 根据 实际 条 件 
来 设 定 最 大 样本 量 ， 比 如 采集 数据 所 需要 的 时 间 、 财 力 、 物 力 和 和 人力。 例如 ， 单 个 实验 中 收集 50 名 被 试 的 
有 效 脑 电 数据 可 能 就 是 实际 上 能 够 接受 的 最 大 样本 
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图 2: 使 用 JASP 进行 配对 样 


本 7 检验 的 截图 。(A) 对 积极 匹配 条 件 优 于 中 性 匹配 条 件 这 一 假设 进行 上 检验 


序列 分 析 的 操作 截图 ; B) 对 消极 匹配 条 件 务 于 中 性 匹配 条 件 这 一 假设 进行 贝 叶 斯 因子 上 检验 序列 分 析 的 


3.3.2 方差 分 析 


操作 截图 。 
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在 本 研究 中 ,检验 匹配 与 道德 标签 是 否 存在 交互 作用 也 是 关键 效应 ， 因 此 , 在 数据 收集 


过 程 中 我 们 也 将 持续 地 进行 贝 叶 斯 因子 重复 测量 方差 分 析 并 监测 其 结果 。 


贝 叶 斯 (重复 测量 ) 方差 分 析 是 用 于 比较 模型 包含 或 不 包含 某 一 因子 和 交互 项 的 预测 能 
力 表现 (Keysers et al., 2020)。 在 进行 贝 叶 斯 重复 测量 方差 分 析 时 ， 要 先 点 击 JASP 界面 上 的 
ANOVA 面板 ， 选 择 “Bayesian” 分 类 下 的 “Repeated Measures ANOVA”， 之 后 在 “Repeated 
Measures Factors” 杠 中， 将 被 试 内 变量 的 名 称 进 行 命名 ， 命 名 结束 后 ， 在 该 框 下 方 “Repeated 
Measures Cells” 中 会 出 现 命 名 后 的 条 件 , 将 数据 中 的 变量 放 入 对 应 的 条 件 框 中 即 可 , 如 图 3A 


左 侧 所 示 〔〈 其 他 类 型 的 贝 叶 斯 ANOVA 分 析 ， 见 王 允 宏 等 , 2022 )。 


行 比 较 。 在 本 例 中 ， 计 算 交 互 项 的 效应 需要 比较 包含 交互 作用 的 模型 ， 


图 3A 右 侧 最 上 方 的 表格 表示 使 用 贝 叶 斯 因子 来 比较 所 有 的 模型 与 最 简单 的 零 模 型 i 


即 


Valence+Matchness+ValencexMatchness 和 不 包含 交互 作用 的 模型 , 即 Valence+Matchness, 得 


到 BF 19 = 2426722239.64， 有 极 强 的 证 据 支 持 交 互 项 的 效应 。 在 本 示例 中 ， 由 于 交互 作 } 


JAF 
常 明显 ,， 仅 收集 3 SAB a, ACER IAB T Fe HT rE BL. WOR AT LE 
集 的 标准 仅 关注 交互 作用 , 则 可 以 停止 收集 数据 。 但 由 于 本 研究 先前 设 定 的 停止 标准 是 3 个 


检验 的 BF 均 达 到 浆 值 或 达到 最 大 样本 量 ， 因 此 继续 收集 数据 并 监测 重复 测量 ANOVA 的 
BF 值 。 值 得 注意 的 是 ，JASP 未 提供 重复 测量 方差 分 析 序 列 分 析 的 可 视 化 效果 。 由 于 JASP 
使 用 R 包 BayesFactor 作为 底层 的 工具 (Wagenmakers et al., 2018)， 我们 也 可 以 使 用 R 代码 完 


成 对 重复 测量 方差 分 析 中 交互 作用 的 BFjo 值 变化 趋势 的 可 视 化 〈 见 图 3)。 
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> EE Baa x Models CO A io eror% 

. ACC_Bad_Nonmate! >. 

3 | AS ACC_Good_Match Null model (incl. subject and random slopes) 0.200 6553x10-16 。 2.621x10-55 1.000 
W ACC_Good_Nonmatch Matchness x Valence + Matchness + Valence Matchness 0.200 L 9684x1049 1.526x10%15 1389 
N ACC_Neutral_Match Match Valence + Matchness 0200 4121x10-10 1648x10-9 628831.753 1187 
W ACC_Neutral_Nonmatch Repeated Measures Cells Valence 0.200 。 8.177x10-13 3271x107}? 1247.825 0.750 


Matchness 0200 1578x10-1} 6.310107"? 240738 1370 
‘Note. All models include subject, and random slopes for all repeated measures factors, 
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Between Subject Factors Matchness 0400 0400 4122x10-10 。 8184x10-1 503.731 
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B. 交互 作用 的 贝 叶 斯 因子 数值 变化 趋势 
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log(BF10) 


3 使 用 重复 测量 方差 分 析 来 检验 匹配 与 效 价 的 交互 作用 。(A) JASP 的 操作 截图 ，(B ) 交互 作用 的 


BFio 值 随 着 样本 增加 的 而 变化 ，y 轴 刻 度 是 以 常数 e 为 底数 进行 log 变换 后 的 BF WEE, GIR BL 


小 数 。 代 码 见 : https:Wgithub.com/Chuan-Peng-Lab/SBFA_Tutorial 


综合 以 上 贝 叶 斯 因子 序列 分 析 的 结果 ， 由 于 关键 统计 假设 之 一 “消极 匹配 条 件 劣 于 中 性 
匹配 条 ”统计 结果 的 BF 10 值 并 未 达到 事先 设 定 的 阀 值 ， 理 论 上 讲 研究 还 需要 继续 收集 数据 ， 


直到 三 个 关键 统计 假设 效应 的 BF 值 均 达到 事先 设 定 的 阀 值 为 止 。 但 本 演示 数据 中 同时 规定 
最 大 样本 量 为 20， 因 此 最 终 样 本 量 为 20。 


3.4 步骤 4: 论文 中 的 报告 

为 了 演示 完整 报告 贝 叶 斯 因子 序列 分 析 结果 ， 根 据 van Doorn 等 (2021) 建 议 在 方法 部 分 
关于 样本 的 信息 ， 进 行 如 下 描述 : 

“RA IU SAF PAA TT EEKE RIER E Schönbrodt et al., 2017), FEKE 
SES NHAT RE BF io KEN 10 ZZ Hi HRED M110 (FEZ Ho HIRD. APR TT 
请 , D T AAA EEKE GISAN Gt DL PL AAEM IS — i, ATE Ved 
AVE TREIZ, RU LAT FP AV BR =NI BF fs fE 
RM GE PFE HIR TEH, “TË IRR KIV EC PEREI ER FER A FU LEE 
VIRKI ACE LF PF MT EF PE MIE ACRE o ES =P KAEROLLE AAR NI AF 


AE MWADEAB ALY SGAOTER t I FMD. NMRA BMT ED ORI 
AROTFER t P2RLSE/A JASP HEEN Rouder etal., 2009). HIEHNKAANHLAR, H 
VORENIDRA FEE BEN) 12 GIA, HK TMG ILEANA 20 GB ik. 
SGEYRILIEP, AYRE REPRE 12 ARRATE- KAW HRA 
BF 10 BL VA PLZ HIFKER APRN KEIER E 20 BE IA TEFEN GH, 
三 个 光 继 BF PPT CBKF REMEE YE, FP BIRLA F BEAU ELL ARE, (4 BF 
Me SAN ECHRUEDE SCPE Ho, A BRULEE GS FUER HERI ERAZ. ” 
需要 注意 的 是 在 停止 收集 数据 规则 需要 研究 者 根据 研究 问题 进行 在 数据 收集 前 进行 设 


定 〈 如 在 预 注 册 中 进行 设 定 )。 其 中 ,与 研究 假设 对 应 的 关键 BF 值 的 选择 、 统 计 模 型 (重复 
测量 方差 分 析 、t 检验 还 是 回归 等 ) 以 及 BF 阀 值 选择 尤其 需要 进行 说 明 。 最 大 样本 量 和 最 
小 样本 量 也 需要 根据 实际 情况 进行 合理 解释 。 


使 用 贝 叶 斯 因子 序列 分 析 进 行 样本 量规 划 时 ， 某 种 程度 上 已 经 完成 了 关键 效应 进行 评 
估 。 但 通常 研究 者 进行 实验 时 并 非 仅仅 对 某 个 单一 的 效应 感 兴趣 ,因此 还 可 以 继续 进行 后 续 
的 统计 分 析 , 对 其 他 效应 (如 方差 分 析 中 的 主 效应 ) 进行 检验 , 或 对 关键 效应 进一步 分 析 ( 如 
对 方差 分 析 中 的 交互 项 进行 简单 效应 分 析 )。 
4. 总结 与 展望 

实验 设计 很 大 程度 上 决定 一 个 实验 研究 的 质量 ， 而 实验 的 信息 量 与 效率 是 实验 设计 中 
的 重要 考量 。 虽 然 传统 基于 NHST 的 统计 检验 力 分 析 试图 为 研究 者 提供 这 样 的 一 个 统计 工 


有 具 ,但 是 这 一 方法 自 提出 起 (Cohen, 1988) 并 未 得 到 足够 的 重视 ， 直 到 可 重复 性 危机 后 期 刊 才 
逐渐 开始 将 样本 量 的 合理 说 明 作为 文章 方法 中 必须 报告 的 部 分 (Simmons et al., 2012)。 可 能 
的 原因 在 于 进行 统计 检验 力 分 析 本 身 较 为 困难 。 最 近 一 项 元 研究 发 现 绝 大 部 分 发 表 论 文中 
报告 的 统计 检验 力 分 析 的 过 程 难以 被 重复 (McKay et al., 2022)。 本 文 介绍 的 贝 叶 斯 因子 序列 
分 析 及 其 实施 步骤: 确定 关键 效应 、 确 定 停止 标准 、 数 据 收集 中 序列 分 析 并 决策 ， 在 操作 上 
更 加 简易 且 考虑 到 现实 状况 。 

当然 , 贝 叶 斯 因子 序列 分 析 也 并 非 万 能 , 盲目 使 用 贝 叶 斯 因子 来 监测 证 据 强 度 可 能 会 带 
来 问题 。 首先 ， 虽然 在 心理 学 研究 中 , 研究 者 通常 使 用 两 个 假设 对 立 的 方式 来 进行 检验 , 但 
真实 生成 数据 的 模型 可 能 是 两 个 或 多 个 假设 的 混合 。 加 之 在 使 用 ANOVA 对 数据 进行 分 析 
时 ， 备 择 假设 通常 是 条 件 之 间 存 在 差异 ， 而 没有 更 清晰 的 假设 。 在 这 种 情况 下 ,盲目 使 用 贝 
叶 斯 因子 来 监控 证 据 强度 可 能 会 增加 实验 者 在 他 们 想 要 的 方向 上 找到 证 据 的 可 能 性 
(Sanborn & Hills, 2014)。 其 次 ， 贝 叶 斯 因子 t-test 和 ANOVA 与 传统 t-test 和 ANOVA 一 样 ， 
需要 满足 一 定 前 提 预 设 才能 应 用 。 如 果 忽 略 前 提 预 设 , 数据 本 身 的 生成 模型 与 贝 叶 斯 因子 分 
析 中 的 统计 模型 不 匹配 时 ， 会 导致 贝 叶 斯 因子 分 析 无 法 提供 有 效 的 方式 来 控制 假 阳 性 (de 


Heide & Grünwald, 2021; Yu et al., 2014)。 当 然 ， 这 一 问题 是 否 为 贝 叶 斯 因子 序列 分 析 的 不 足 


pan 


也 存在 争议 ( 见 Rouder & Haaf, 2019)。 最 后 ， 虽 然 使 用 JASP 和 R 程序 包 BayesFactor 进行 由 
叶 斯 因子 序列 分 析 较 为 简便 , 但 当 效 应 量 较 小 ， 所 需 样本 量 较 大 时 , 计算 所 需要 的 迭代 次 数 
也 随 之 增加 ， 需 要 较 高 的 计算 成 本 (Fu et al., 2021)。 
尽管 贝 叶 斯 因子 序列 分 析 目 前 没有 像 先 验 检验 力 分 析 那 样 在 设计 实验 和 规划 样本 量 
= 被 广泛 使 用 , 但 其 能 够 很 好 的 平衡 实验 中 的 信息 量 和 效率 的 优势 , 使 得 越 来 越 多 的 研究 者 在 
规划 样本 量 时 使 用 该 方法 。 贝 叶 斯 因子 序列 分 析 已 经 被 运用 于 婴儿 早期 词汇 学 习 (Mani etal.， 
2021) 和 社会 知觉 决策 (C.-P. Hu et al., 2020) 等 研究 的 样本 量规 划 之 中 。 贝 叶 斯 序列 分 析 能 够 
及 时 停止 数据 收集 的 特点 ， 在 资源 有 限时 尤其 重要 。 例 如 ， 心 理科 学 加 速 器 (Psychological 
Science Accelerator, PSA) 的 第 六 个 项 目 中 ， 作 者 团队 最 初 设计 通过 PSA 的 合作 者 网 络 来 检 
验 一 个 关键 的 研究 假设 ， 即 道德 判断 的 跨 文化 差异 (Bago et al., 2022)。 但 当 研 究 方案 作为 第 
一 阶段 的 注册 报告 提交 给 Nature Human Behavior 后 ， 审 稿 人 要 求 额外 检验 假设 。 为 满足 这 
个 要 求 同 时 避免 给 全 球 合作 者 带 来 过 大 的 工作 量 ， 方 法 团队 最 终 使 用 贝 叶 斯 因子 序列 分 析 
进行 样本 量规 划 。 当 第 一 个 研究 的 数据 达到 了 数据 停止 收集 的 BF 阔 值 (BFro>10 或 BFro<L/10) 
后 ， 被 试 被 自动 引导 到 第 二 个 实验 的 链接 ， 继 续 完成 第 二 个 研究 数据 收集 。 
贝 叶 斯 因子 序列 分 析 可 以 扩展 到 更 复杂 的 统计 模型 ， 具 有 广阔 的 应 用 前 景 。 例 如 ， 当 研 


究 者 需要 使 用 层级 模型 (或 线性 混合 模型 ) 时 ， 如 果 研 究 者 清楚 其 研究 所 关注 的 效应 ， 也 可 
以 通过 与 ANOVA 类 似 的 模型 比较 思路 ， 使 用 其 他 工具 包 〈 如 brms(Biirkner, 2017)) WET IL 


叶 斯 因子 序列 分 析 (Vasishth et al., 2022). 
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Abstract 
The key of experimental design is to balance between informativeness and efficiency. However, 
power analysis only focuses on informativeness and is difficult to implement. Sequential Bayes 
Factor analysis takes the advantage of Bayes Factor’s ability to continuously update the evidence 
and reach a trade-off between informativeness and efficiency by setting Bayes Factor criteria and 
the sequential analysis during data collection. The present primer demonstrates how to perform 
three steps of sequential Bayes Factor analysis using open-source software JASP and R. This 
method considers practical issues in real research practices and is easy to implement, which can 


help researchers to design more efficient experiments. 
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